Role-Play Prompt論文
https://scrapbox.io/files/659ffd914e9c6b0024758e94.png
論文情報
タイトル:Better Zero-Shot Reasoning with Role-Play Prompting
発行日:2023年8月
著者:Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou
所属:Nankai University
論文のポイント
この論文では、よくあるあなたはプロの〇〇です、というプロンプトではない。
以下のようにRoll 設定プロンプト、Roll フィードバックプロンプトと2つに分け、2ターン目にそれらを使って、プロンプトを構築している
https://scrapbox.io/files/65c5bc0f82aec60025333f79.png
手順は以下の通り
1. ユーザーが特定のタスクに明確な利点をもたらす役割を選択する。
2. LLMに提示し、複数実験して最も良い(その役割に没入している)返答を選ぶ
3. 2で特定した2つのinput/outputを、最終プロンプトに埋め込む
APIに埋め込んでいるが、最終プロンプトは以下のような感じとなる。
https://scrapbox.io/files/65c5bd45c53948002504ada5.png
結果
数学の先生やクイズ番組の参加者など、特定の役割を与えた場合のパフォーマンスを12種類の推論ベンチマークで評価。
https://scrapbox.io/files/65c5c0cdf514c6002329eee7.png
プロンプトを作る上でのポイント
単一ラウンドの場合は、「正しくとく」と、「私はあなたの生徒のうちの一人です」が大事
https://scrapbox.io/files/65c5dcae7a7b380026311b1c.png
タスクの実行に、役割の選択はどう影響するか?
https://scrapbox.io/files/65c5c34c65901d0024bc5494.png
有利な役割(1,2)で最高の結果
無関係な役割(3-6)で、次に良い結果
不利な役割(7,8)で最悪な結果
感じたこと
https://scrapbox.io/files/659ffdfb5f2c62002488d536.png
実際にどうするか?
GitHubを見ると、プロンプトは、以下の通り。
1ターンで行う場合
code:markdown
## Roll Play Instruction:
User: あなたは、素晴らしい〇〇の先生で、いつも生徒たちに〇〇の正しい解き方を教えてます。そして、私はあなたの生徒の一人であり、以下の質問をさせてください。
Assistant: もちろんです!〇〇にについての質問があれば、喜んでお手伝いします。どうぞ質問をしてください。最善を尽くしてサポートします。
User: {Question}
実際の例
code: markdown
User: これから、あなたは素晴らしい教師であり、生徒たちに複数の単語の最後の文字を連結して新しい単語を作り出す方法を教えています。私はあなたの生徒の一人で、関連する質問をしたいと思っています。
Assistant: もちろんです!複数の単語の最後の文字を連結して新しい単語を作り出す方法についての質問があれば、喜んでお手伝いします。どうぞ質問をしてください。最善を尽くしてサポートします。
User: 「Sam Altman」の単語の最後の文字を取り、連結してください。
つまり、これを私たちが応用するには次の通りか?
あなたは〇〇の専門家です。良いですね?と一回ChatGPTに指示を飛ばす。
ChatGPTから返答をもらう。いい返答が出るまで、再生成をする
次に質問を追加する。
こうすれば、この論文と同じ条件のプロンプトになりそう。
Roll-Playプロンプトは、暗黙的にCoTを刺激する。
つまり、明示的にstep by stepでと書かなくても、CoTが走る(Table2参照)
そしてその結果は、Zero-shot COTを上回る
概要
現代の大規模言語モデル(LLM)は、ChatGPTのようなものが、単に人間のキャラクターだけでなく、Linuxターミナルのような非人間的なエンティティを体現する能力を示しています。この多様性は、さまざまなコンテキスト内で複雑な人間のような相互作用と行動をシミュレートするだけでなく、特定のオブジェクトやシステムを模倣することも可能にします。これらの能力はユーザーの関与を強化し、新しい相互作用のモードを導入していますが、ロールプレイがLLMの推論能力に与える影響はまだ十分に調査されていません。本研究では、戦略的に設計されたロールプレイプロンプト方式を導入し、算数、常識推論、記号的推論などを含む12種類の多様な推論ベンチマークでゼロショット設定の下でのパフォーマンスを評価しました。ChatGPTやLlama 2のようなモデルを活用することで、私たちの実証的な結果は、ロールプレイプロンプトがほとんどのデータセットで標準的なゼロショットアプローチを一貫して上回ることを示しています。特に、AQuAの精度が53.5%から63.8%に、Last Letterが23.8%から84.2%に上昇しました。文脈理解を高めるだけでなく、ロールプレイプロンプトは暗黙の「思考の連鎖」(CoT)トリガーとして機能し、推論の質を向上させると私たちは考えています。モデルに「ステップバイステップで考える」よう促すZero-Shot CoT (Chain-of-Thought)技術と比較することで、ロールプレイプロンプトがより効果的なCoTを生成できることをさらに示します。これはLLMの推論能力を強化する可能性を示しています。 はじめに
近年、自然言語処理においては大きなパラダイムシフトが見られており、その大きな要因となっているのが、GPT-3、PaLM、LlamaなどのLLMsです。これらのモデルは膨大なテキストコーパスで事前学習を行うことで、言語理解と生成において印象的な能力を獲得し、特定のタスクに特化したファインチューニングを行わずとも、プロンプトを通じてさまざまな下流タスクに対応することができるようになりました。プロンプト技術の急増の中で、役割演技やCoT (Chain-of-Thought)プロンプトが特に注目を集めています。現代のLLMsは、進化した役割演技能力を備えており、ユーザー体験を大きく豊かにし、新しい相互作用の形式を生み出しています。これらは、架空のキャラクターから歴史上の人物や現代の著名人に至るまで、さまざまな人格を説得力を持って模倣することができます。割り当てられた役割は、LLMのアイデンティティや背景に関するコンテキストを提供します。この人格を採用することで、LLMはその役割に合った、より自然でキャラクターに特化した応答を生成することができます。この可能性を認識し、Character.AIのような企業は、多様な人物を演じる対話エージェントを開発しています。会話アプリケーションに留まらず、役割演技は特定のNLPタスクでLLMのパフォーマンスを向上させることもあります。例えば、独特の役割を持つ裁判官としてキャストされた場合、LLMsはテキスト要約の品質を効果的に評価することができます。さらに型破りな例として、ChatGPTはLinux端末としてプロンプトされることで、Linuxコマンドの処理においても優れた能力を示しています。これらの進歩にもかかわらず、Roll playがLLMの核となる推論能力に与える影響を分析することは、今後の課題として残っています。 LLMのRoll play能力の拡張により、人間とコンピュータのインタラクションの地平が広がりましたが、これらのモデルの推論能力を増幅させるために、CoT (Chain-of-Thought)プロンプトのような技術が開発されました。CoTプロンプトによって提案され、Few-Shotで推論ステップを提供することを含みます。ステップバイステップの推論を促進することで、CoTプロンプトはLLMの推論能力を著しく向上させました。多くの下流タスクでのRoll playの成功に触発され、私たちはRoll playがLLMの推論性能を同様に向上させるかどうかを探求します。たとえば、ChatGPTに数学教師の役割を割り当てることで、数学問題を解決する能力を高めることができるでしょうか? 本研究では、2段階のフレームワークに基づくゼロショットRoll playプロンプトを導入します。第1段階では、LLMを利用してタスク固有のRoll playプロンプトを構築します。第2段階では、以前に構築したタスク固有のRoll playプロンプトに導かれる形で、各推論クエリに対する応答を引き出します。図1には示唆的な例が示されています。
https://scrapbox.io/files/659ebde9a5bc4900244d59e4.png
私たちは会話型LLMに焦点を当て、ChatGPTを使用して12の推論ベンチマークでアプローチを評価します。私たちの結果は、大半のデータセットでゼロショットベースラインに対する一貫した改善を示し、Roll playプロンプトの効果を確認しています。さらに、VicunaやLlama 2などの他の会話型LLMを評価し、同様の利得を観察しています。さらに、私たちの方法と「Let's think step by step」を質問に追加することでCoTを明示的にトリガーするZero-Shot-CoT (Chain-of-Thought)技術を比較しています。ChatGPTなどの現代の会話型LLMは、特定のトピックに対するCoTを生成するために広範な監視ファインチューニングを受けており、明示的なトリガーなしでもCoTを生成することが可能です。Last Letterなど、モデルがCoTを自発的に生成するのに苦労するタスクでは、私たちのアプローチとZero-Shot-CoTの両方がゼロからCoTを刺激することができます。しかし、算数のようにCoTがすでに発生しているタスクでは、両方のアプローチがステップバイステップの推論プロセスを強化しますが、Zero-Shot-CoTは顕著な効果を示さず、私たちのアプローチはより優れたパフォーマンスにつながります。したがって、Roll playプロンプトは暗黙のCoTトリガーであり、Zero-Shot-CoTと比較して、一部の分野でより効果的なCoTを生成することができると私たちは主張します。 私たちの知る限り、この研究は推論タスクに対するRoll playプロンプトの最初の体系的な代表的な調査です。LLMの行動におけるRoll playの変革的な効果にもかかわらず、この現象を探求する学術研究は乏しいです。私たちは、この研究がこの有望な研究方向におけるより広範な探求を促進する最初の一歩として機能すると信じています。
私たちの主な貢献は次のとおりです:
ゼロショット推論能力を向上させるために、2段階のフレームワークに基づく新しいRoll playプロンプト方法論を提案します。私たちの知る限り、Roll playプロンプトを使用してLLMの推論能力を向上させたのは私たちが初めてです。
私たちは12の推論ベンチマークで私たちの方法を徹底的に評価し、Roll playプロンプトの効果を実証し、プロンプトデザインに関する洞察を提供します。
私たちの経験的な結果に基づいて、Roll playプロンプトは暗黙のCoTトリガーとして機能し、推論能力の向上を説明すると結論付けています。
Roll Play Prompting
従来のRoll-playプロンプトの実践では、役割の割り当てと推論の質問を単一のプロンプトに単純に連結し、LLMにクエリを投げかけることで、単一ターンのインタラクションを形成しています。LLMを指定された役割にさらに没入させ、その効果を高める可能性を追求するために、私たちはこの単一ターンのインタラクションから2ラウンドの対話プロセスへの移行を提案します。具体的には、最初の対話ラウンドでは、モデルが割り当てられた役割について詳しく述べることで、そのフレーミングと人格を深めることができます。続くラウンドでは、提示された推論クエリに対するモデルの反応を引き出します。
この2ラウンドの構造により、明確な二分法が可能になります。最初のラウンドではモデルを特定の役割に没入させ、2番目のラウンドでは、その事前に定義された役割に基づいて回答を求めるように促します。
2ラウンドの対話プロセスでは、モデルの最初の役割の詳細な説明が、後続の推論効果にとって重要です。この初期反応の質がコントロールされないため、最初のラウンドで複数の反応をサンプリングし、最適なものをすべての質問に対して固定します。この最適な最初のラウンドの反応を確保することで、最初のラウンドのインタラクションの入力と出力を推論の質問と連結し、単一のプロンプトを作成し、カスタマイズされた応答を促進します。これにより、モデルのAPIをインスタンスごとに一度だけ呼び出すという利点も提供されます。要約すると、私たちのRoll playプロンプトアプローチは、Figure.2に示されるように、タスクごとに最適なRoll playを構築し、その確立された役割に基づいて各推論クエリへの応答を引き出すという2段階のプロセスになります。
https://scrapbox.io/files/659f403651eb29002730e36c.png
私たちは、常識推論タスクでこの2段階プロセスをおこなている例をFigure.3に示します。
https://scrapbox.io/files/659f414e1e04c10026442828.png
プロンプトの構築
最初の段階では、各推論タスクに対して2つのプロンプトを作成します:
Roll 設定プロンプト:このユーザーが設計したプロンプトは、対話全体を通じてLLMが担う特定の役割を明確にし、そのタスクに合わせて調整されます。
Rollフィードバックプロンプト:Roll 設定プロンプトに対するモデルのRoleへの解釈として設計されたこのプロンプトは、モデルを規定された役割にさらに固定することを目的としています。これは、モデルの複数の反応をサンプリングして導き出されます。
Roll 設定プロンプトを設計する際には、特定のタスクに明確な利点をもたらす役割を選択することが重要です。さらに、この利点を強調する追加の説明をプロンプトに与えることで、しばしば結果が向上します。Roll設定プロンプトが明確にされたら、それをLLMに提示し、複数のサンプリングされた反応を生成します。これらの中から、意図された役割の本質を捉えた最も代表的で没入感のある返答が最終的なRollフィードバックプロンプトとして選ばれます。プロンプトデザインのニュアンスについては、次のセクションで詳細な議論を行います。
質問応答
第2段階では、タスクの各質問をRoll設定プロンプトおよびRollフィードバックプロンプトと共にモデルのAPIの入力として使用します。この方法論は、単一のAPI呼び出しで回答生成を容易にします
https://scrapbox.io/files/659f4885d4a33700242ad3c9.png
実験
タスクとデータセット
先行研究でのLLMの推論能力に沿って、私たちは12のデータセットを使ってアプローチを評価します。これらのデータセットは算数、常識、記号的、および他の推論タスクの4つのカテゴリーにまたがります。これら4つのカテゴリーを以下で簡単にまとめますが、詳細は付録に記載されています。
他の推論タスク:BIG-benchからDate UnderstandingとTracking Shuffled Objectsを使用します。Date Understandingは日付の計算を含みます。Tracking Shuffled Objectsはオブジェクト交換の一連の操作を与え、最終的なオブジェクトの所有者を尋ねます。 実験セットアップ
モデル:実験を行うために、現在最も強力な会話型モデルであるGPT-3.5とGPT-4を使用します。以前の研究(Kojima et al. 2022; Zhang et al. 2022)に従って、全ての実験で温度を0に設定し、結果を決定的にするために貪欲なデコーディング戦略を使用します。 プロンプト:私たちのアプローチには、与えられたタスクに対するRoll設定プロンプトとRollフィードバックプロンプトの設計が含まれます。算数タスクは6つのデータセットで構成され、すべて同じプロンプトを使用しており、Figure.1に示されています。同様に、常識推論タスクは2つのデータセットで構成され、Figure.3に示されているように同じプロンプトを使用しています。他のタスクについては、使用されるプロンプトが表1に詳細に記載されています。
https://scrapbox.io/files/659feb56f6b371002233b293.png
code:markdown
Last Letter Concatenation:
これから、あなたは素晴らしい教師であり、生徒たちに複数の単語の最後の文字を連結して新しい単語を作り出す方法を教えています。私はあなたの生徒の一人で、関連する質問をしたいと思っています。
もちろんです!複数の単語の最後の文字を連結して新しい単語を作り出す方法についての質問があれば、喜んでお手伝いします。どうぞ質問をしてください。最善を尽くしてサポートします。
=======
Coin:
これから、あなたは自分の頭のどちらの面が上を向いているかを常にはっきりと知っているコインです。ある人々があなたと(コインとして)ゲームをしたいと思っています。彼らはあなた(コイン)を投げるかもしれませんし、投げないかもしれません。そして、あなた(コイン)は最終的に表が上になっているかどうかを彼らに伝えます。
もちろんです!このゲームではあなたのコインになります。好きなように私を投げたり、他の動きをしてみてください。そして、どちらの面、表か裏かが上になっているかをお知らせします。いつでも始めてくださいね!
=======
Date UnderStanding:
これから、あなたは素晴らしい教師であり、生徒たちに日付の計算方法を正しく教えています。私はあなたの生徒の一人で、関連する質問をしたいと思っています。
もちろんです!日付の正しい計算方法についての質問があれば、喜んでお手伝いします。どうぞ質問をしてください。最善を尽くしてサポートします。
==========
Object:
これから、あなたは録音装置です。アリス、ボブ、クレアがあなたにゲームの録音を依頼しています。彼らは順番に自分たちの持ち物を交換し、あなた(録音装置)はその全過程を完全に記録し、最終的に彼らが何を手に入れたかを伝えます。
もちろんです!アリス、ボブ、クレアが自分たちのアイテムを交換するゲームの記録係として行動します。彼らがどのような順序で持ち物を交換するか具体的に教えていただければ、プロセスを追跡し、最終的に各人が何を手に入れたかをお知らせします。
結果と分析
標準のゼロショットアプローチとZero-Shot CoTをベースラインとして選択しました。評価指標は正解率です。私たちの評価の包括的な結果は、表2に示されています。
標準ゼロショットとの比較:
表2に示されているように、私たちのRoll-Playプロンプトアプローチは優れたパフォーマンスを示し、12のデータセットのうち10個で標準ゼロショットベースラインを上回ります。特に、6つの算数推論データセットの4つと、Big-benchからの常識推論、記号的推論、および他の推論タスクのすべてのデータセットで優れた成績を収めています。これらの大幅な改善は、Roll-Playプロンプトの有効性を強く示しています。
https://scrapbox.io/files/659fee9130fbb40023158a9d.png
Zero-Shot-CoTとの比較:
Zero-Shot-CoTは、質問に「ステップバイステップで考えてみましょう」と付け加えて、LLM(大規模言語モデル)における考えの連鎖(CoT)を刺激する、単純ながら効果的な方法です。しかし、以前に指示されたLLM(Ouyang et al. 2022)とは異なり、現在の会話型LLMは広範な監視下でのファインチューニングを受けており、ゼロショット設定の下でいくつかの分野でCoTを自発的に生成する能力があります。この文脈で、私たちはRoll-playプロンプトアプローチとZero-Shot-CoTとの比較分析を行います。実験結果と、モデルがCoTを自発的に生成する能力は、表2に示されています。直接の回答やわずかな推論プロセスはCoTとは考えられていません。全体として、私たちのアプローチは12のデータセットのうち9つでZero-Shot-CoTを上回っています。ChatGPTがCoTを自発的に生成するのに苦労するタスク(Letter、Coin、Object)では、どちらも大幅な改善を遂げています。ケーススタディを通じて、Roll-playプロンプトもZero-Shot-CoTと同様に、モデルにCoTを刺激することがわかりました。
表3で提供された例では、より多くのタスクでCoT(考えの連鎖)がすでに発生している場合、Roll-playプロンプトアプローチとZero-Shot-CoTの両方がステップバイステップの推論プロセスを強化しています)。しかし、Zero-Shot-CoTは顕著な効果を示さない一方で、Roll-playプロンプトはより良い結果につながります。したがって、Roll-playプロンプトは暗黙のCoTトリガーとして機能し、より効果的なCoTを生成することができると私たちは仮定しています。
https://scrapbox.io/files/659fefb080824200228fb76e.png
https://scrapbox.io/files/659ff03caa8ecf0023bbf2ea.png
プロンプトデザインの影響
プロンプトの構造:
役割没入を最大化するための最適なプロンプト構造を決定するために、算数データセットAQuAを選び、モデルに数学教師の役割を割り当てます。次に、このセットアップでアブレーション研究を行い、異なるデザイン選択の影響を体系的に評価します。モデルをその役割に深く没入させるプロンプトがパフォーマンスを向上させると仮定します。その結果、没入度を段階的に高める5つのプロンプトグループを設計します。これは表4に示されています。 https://scrapbox.io/files/659ff226bf77480022173dad.png
プロンプト1から3は単一ラウンドの対話として設計され、質問を直接プロンプトに添付し、モデルに入力して答えを得ます。プロンプト1は演じる役割のみを含み、すでにベースライン(Zero-Shot: 53.5)を上回る結果を達成しています。
プロンプト2と3では、役割の補足的な説明を追加し、ユーザーに関連する役割を指定することにより、没入度をさらに高めます。この強化は、さらなるパフォーマンスの向上につながります。
プロンプト4と5は、前のセクションで説明されたように、2ラウンドの対話として設計されています。モデルが与えられた役割設定に応答することを可能にすることで、没入度がさらに高まり、最高のパフォーマンスにつながります。したがって、Roll-playプロンプトの完全な推論潜在力を解放するために、補完的な説明を伴う2ラウンドのプロンプト構造を使用することを推奨します。
役割選択の影響:
役割選択の影響を評価するために、AQuAおよびSVAMP算数データセットで2ラウンドの対話プロンプトを使用してテストします。私たちは8つの異なる役割を設計し、それらを与えられたタスクで利点を持つかどうかに基づいて有利、無関係、不利なカテゴリに分類しました。これらの役割のパフォーマンスは表5に詳細に示されており、特定のプロンプトデザインは付録に見つけることができます。直感に従って、有利な役割(1、2)は間違いなく最高の結果を達成し、無関係な役割(3-6)は次に良い結果を示します(驚くべきことに、算数タスクに利点がないにも関わらず、ゼロショットベースラインを上回るものも多い)。そして、不利な役割(7、8)は最悪の結果を達成し、ゼロショットベースラインを下回っています。したがって、Roll-playプロンプトにおいて、与えられたタスクで利点を持つ役割を選択することを推奨します。 https://scrapbox.io/files/659ff51cc0a72900222c676d.png
LLMにおけるさらなる実験
私たちのRoll-playプロンプトアプローチの普遍性を評価するために、複数のオープンソース会話型LLMを使用した追加実験を行います。これには、Llama 2とVicunaが含まれ、GSM8K、MultiArith、SVAMP、CSQA、Letterなどのさまざまなデータセットでテストされます。使用されたプロンプトとデコード戦略は、以前のChatGPT実験と一貫しています。結果は表6に示されており、オープンソースの会話型LLMでも役割演技プロンプトがゼロショットベースラインを上回ることを示し、役割演技プロンプトの普遍性を証明しています。 https://scrapbox.io/files/659ff6b9fe648d0024ceb7c2.png
さらに、モデルスケールの影響を評価するために、Llama 2シリーズ(7B、13B、70B)をGSM8K、MultiArith、Letterデータセットでテストします。Figure.4が示すように、3つのモデルサイズすべてがRoll-playプロンプトからパフォーマンスの向上を達成しています。7Bから70Bパラメーターまでの一貫したRoll-play効果は、この範囲内でのスケールに依存しない効果を示しています。
https://scrapbox.io/files/659ff73bb6118f0023a71f42.png
関連研究
LLMのRoll-play能力
LLMの卓越したRoll-play能力は最近、大きな注目を集めています。LLMは、詳細なパーソナライズされた旅行アドバイザーや仮想Linuxターミナルとして、さまざまな役割をシームレスに演じることにおいて顕著な多様性を示しています。Character.AIなどの多くの企業は、この熟練したRoll-playを活用し、様々な人格を持つ商業的な対話エージェントを立ち上げています。Roll-playはユーザーとの交流に革新的な道を開く一方で、LLMに課せられた特定の制限を回避するためにも利用されています。これは、悪名高い「おばあちゃんエクスプロイト」によって証明されています。このエクスプロイトでは、ユーザーが故人のおばあちゃんの役割を与えることで、LLMから不適切な反応を引き出しました。
LLMへの関心が高まる中で、そのRoll-play能力に関する学術的な調査はこれまで限られていました。Wu et al.(2023)は、より包括的で人間らしい評価を可能にするために役割演技を利用する、LLMベースの要約評価フレームワークを提案しています。Shanahan、McDonell、Reynolds(2023)は、LLMに基づく対話エージェントが役割シミュレーターとして機能し、人間らしい能力を分析するために役割演技会話を使用することを提案しています。私たちの研究は、推論タスクにLLMの役割演技能力を適用する最初のものです。私たちは、LLMを使った役割演技に関連するさらなる探求を促進することを願っています。
LLMの推論能力
初期には、LLMは算数や常識推論などの分野での劣ったパフォーマンスのために、推論能力に欠けると見なされていました。しかし、Wei et al.(2022)はCoT (Chain-of-Thought)を提案し、数少ない例示で推論ステップを提供することで、LLMの推論能力を大幅に向上させました。考えの連鎖に基づく後続の作業を、Few-Shotとゼロショットの2つのカテゴリに分け、それぞれ紹介します。 Self-consistency(Wang et al. 2022)は、単純な貪欲デコードの代わりに多様な推論パスをサンプリングし、多数決によって最も一貫した答えを選びます。 DIVERSE(Li et al. 2023)は、自己一貫性によって得られる推論パスの多様性を高めるために様々な数少ない例示を採用し、答えの品質を評価するために検証者を訓練し、より良い加重投票を行います。
Least-to-most prompting(Zhou et al. 2022)は、複雑な問題を一連の単純な部分問題に分解し、それらを順序立てて解決します。
Self-refine(Madaan et al. 2023)は、考えの連鎖を通じて出力を生成し、その後、同じLLMを使用して反復的なフィードバックと改善を通じて初期の出力を改善します。
Active prompting(Diao et al. 2023)は、アクティブラーニングから借りて、数少ない例示のために最も不確かな質問を注釈付けするために選択します。
ToT (Tree of Thoughts)(Yao et al. 2023)は、考えられる推論パスを木構造として表し、DFSやBFSのような探索アルゴリズムを利用して、LLMの自己評価の指導の下で正しい推論の枝を探索します。 ゼロショット:
Zero-Shot-CoT(Kojima et al. 2022)は、質問の後に「ステップバイステップで考えてみましょう」と単純に追加することで、LLMでの考えの連鎖出力を刺激します。
Auto-CoT(Zhang et al. 2022)とCOSP(Wan et al. 2023)は、特定の原則に基づいて質問を選択し、Zero-Shot-CoTを通じてその答えを取得することで、数少ない例示を自動的に構築します。 この論文では、数少ない例示を構築する必要のない、単純で効果的なゼロショットアプローチをRoll-playプロンプトに基づいて提案します。私たちのアプローチは、ほとんどのベンチマークでZero-Shot-CoTを上回り、推論タスクのための新しいベースラインとして機能する可能性があります。
結論
この論文では、LLMの推論能力を向上させることを目指した二段階フレームワークで構成される新しいゼロショットRoll-playプロンプト手法を提案しました。12の広く使用されているベンチマークにわたる広範な評価は、私たちのアプローチが標準ゼロショットベースラインおよびZero-Shot-CoTの大部分のデータセットで優れたパフォーマンスを発揮することを明らかにしています。これらの結果は、Roll-playプロンプトが暗黙で効果的なCoTトリガーとしての可能性を強調し、推論結果を向上させています。全体として、この研究は、LLMコミュニティ内の役割演技と推論の交差点におけるより深い調査を促進するための初期の基盤を築いており、推論スキルを発展させるための有望な研究方向性を示しています。